Skip to content

iPAS 備考筆記 - AI 應用規劃師

TLDR

  • AI 基礎:AI、ML、DL 為巢狀關係;目前主流商用 AI 均屬「弱 AI(Narrow AI)」。
  • 資料工程:資料湖倉(Data Lakehouse)結合了資料湖的彈性與資料倉儲的治理能力;獎牌架構(Bronze/Silver/Gold)是資料分層管理的標準模式。
  • 資料處理:ELT 逐漸取代 ETL,以保留原始資料細節供 AI 訓練使用。
  • 資料治理:Data Mesh 透過領域導向所有權解決集中式平台的擴展瓶頸。
  • 特徵工程:類別型特徵編碼需視基數與模型類型選擇(One-Hot, Target, WoE 等);數值特徵需標準化(Z-score, Robust Scaling)。
  • 模型評估:類別不平衡問題應優先考慮指標選擇(F1, AUC, MCC)與決策閾值調整,而非僅依賴 Accuracy。
  • 深度學習:Transformer 架構是現代 NLP 的基石;CNN 擅長影像空間特徵;Diffusion Model 是目前圖像生成的主流。
  • AI 治理:EU AI Act 採取風險分級管理;AI 系統需具備公平性、可解釋性與安全性,並透過 Model Card 與 Datasheet 進行透明度揭露。

AI 基礎概念

AI 能力層次與分類

人工智慧泛指讓機器模擬人類智慧行為的技術。目前的商用 AI(如 ChatGPT、AlphaGo)皆屬於「弱 AI(Narrow AI)」,其特徵為:

  • 無自主目標設定:僅能回應提示或外部任務。
  • 無持續性記憶:對話結束後不會自主累積經驗。
  • 跨領域遷移受限:表現依賴大量訓練資料與後訓練流程。

AI 功能可分為:分析型、預測型、生成型與規範型(推薦最佳行動方案)。

AI、機器學習與深度學習

三者為層層包含的巢狀關係:

  • AI:任何讓機器展現智慧行為的技術。
  • ML:透過資料自動學習模式,不需明確編寫規則。
  • DL:使用多層神經網路自動萃取特徵。

資料工程

資料儲存架構

  • Data Warehouse:結構化資料,寫入時定義綱要(Schema-on-Write),適合報表。
  • Data Lake:原始資料,讀取時解析綱要(Schema-on-Read),適合探索。
  • Data Lakehouse:結合兩者,支援 ACID 交易與版本追蹤,適合報表、ML 與 RAG。

獎牌架構(Medallion Architecture)

  • Bronze(銅層):原始資料,維持原貌。
  • Silver(銀層):清洗與標準化,跨業務通用。
  • Gold(金層):業務消費層,預先計算好的資料集。

資料治理

  • Data Mesh:將資料所有權下放給各業務領域,透過自助式基礎設施與聯邦式治理管理。
  • Data Catalog/Metadata/Lineage:分別解決資料「找得到」、「看得懂」與「追得出」的問題。

特徵工程

類別型特徵編碼選型

  • One-Hot:適用類別少、無順序的特徵(樹模型)。
  • Ordinal:適用有明確順序的特徵(如教育程度)。
  • Target Encoding:適用高基數特徵,但需防範 Data Leakage(資料洩漏)。
  • WoE:金融領域二元分類標準做法。
  • Feature Hashing:適用串流資料或記憶體受限場景。

資料品質與不平衡處理

  • 資料品質六維度:準確性、完整性、一致性、時效性、唯一性、有效性。
  • 不平衡處理
    • SMOTE:適用數值型特徵,在少數類別樣本間插值生成合成樣本。
    • 決策閾值調整:訓練後調整,成本最低。
    • 異常偵測:當類別比例極端(如 99.99:0.01)時,改用 Isolation Forest 或 One-Class SVM。

機器學習演算法

監督式學習

  • 線性模型:羅吉斯迴歸(Logistic Regression)輸出機率,適合二元分類。
  • 決策樹:透過分裂規則做預測,可解釋性高,但單棵樹易過擬合。
  • SVM:透過最大間隔(Maximum Margin)尋找決策邊界,適合高維、小樣本資料。
  • 集成學習
    • Bagging(Random Forest):降低 Variance。
    • Boosting(XGBoost, LightGBM, CatBoost):降低 Bias,提升預測力。

非監督式學習

  • K-Means:球狀分群,需事先指定 K 值。
  • DBSCAN:基於密度分群,可自動識別噪音點,不需指定群數。

深度學習與模型架構

  • CNN:卷積層萃取局部特徵,適合影像處理。
  • RNN/LSTM:處理序列資料,LSTM 透過門控機制解決梯度消失問題。
  • Transformer:基於 Self-Attention 機制,支援平行運算,是現代 LLM 的基礎。
  • Diffusion Model:透過反向去雜訊過程生成高品質圖像。

AI 治理與安全

AI 治理架構

  • EU AI Act:基於風險的分級管理框架,禁止不可接受風險,嚴格規範高風險 AI。
  • NIST AI RMF:提供風險管理的流程語言(Govern, Map, Measure, Manage)。
  • ISO/IEC 42001:AI 管理系統的國際標準,強調責任分工與持續改善。

安全防護

  • 提示注入(Prompt Injection):防禦重點在於指令與資料隔離。
  • 隱私保護:透過差分隱私(Differential Privacy)注入雜訊,或使用聯邦學習(Federated Learning)確保原始資料不離開本地。
  • 可解釋性(XAI):SHAP 與 LIME 是事後解釋黑箱模型的主流工具。

異動歷程:2026-05-20 初版文件建立。